学习无标记数据的判别性表示是一项具有挑战性的任务。对比性的自我监督学习提供了一个框架,可以使用简单的借口任务中的相似性措施来学习有意义的表示。在这项工作中,我们为使用图像贴片上的对比度学习而无需使用明确的借口任务或任何进一步标记的微调来提出一个简单有效的框架,用于使用对比度学习进行自我监督的图像分割。完全卷积的神经网络(FCNN)以自我监督的方式进行训练,以辨别输入图像中的特征并获得置信图,从而捕获网络对同一类的对象的信念。根据对比度学习的置信图中的平均熵对正 - 和负斑进行采样。当正面斑块之间的信息分离很小时,假定会收敛,而正阴对对很大。我们评估了从多个组织病理学数据集分割核的任务,并通过相关的自我监督和监督方法显示出可比的性能。所提出的模型仅由一个具有10.8K参数的简单FCNN组成,需要大约5分钟才能收敛于高分辨率显微镜数据集,该数据集比相关的自我监督方法小的数量级以获得相似的性能。
translated by 谷歌翻译
We revisit a simple Learning-from-Scratch baseline for visuo-motor control that uses data augmentation and a shallow ConvNet. We find that this baseline has competitive performance with recent methods that leverage frozen visual representations trained on large-scale vision datasets.
translated by 谷歌翻译
Poor sample efficiency continues to be the primary challenge for deployment of deep Reinforcement Learning (RL) algorithms for real-world applications, and in particular for visuo-motor control. Model-based RL has the potential to be highly sample efficient by concurrently learning a world model and using synthetic rollouts for planning and policy improvement. However, in practice, sample-efficient learning with model-based RL is bottlenecked by the exploration challenge. In this work, we find that leveraging just a handful of demonstrations can dramatically improve the sample-efficiency of model-based RL. Simply appending demonstrations to the interaction dataset, however, does not suffice. We identify key ingredients for leveraging demonstrations in model learning -- policy pretraining, targeted exploration, and oversampling of demonstration data -- which forms the three phases of our model-based RL framework. We empirically study three complex visuo-motor control domains and find that our method is 150%-250% more successful in completing sparse reward tasks compared to prior approaches in the low data regime (100K interaction steps, 5 demonstrations). Code and videos are available at: https://nicklashansen.github.io/modemrl
translated by 谷歌翻译
第三人称视频的逆增强学习(IRL)研究表明,令人鼓舞的结果是消除了对机器人任务的手动奖励设计的需求。但是,大多数先前的作品仍然受到相对受限域视频领域的培训的限制。在本文中,我们认为第三人称IRL的真正潜力在于增加视频的多样性以更好地扩展。为了从不同的视频中学习奖励功能,我们建议在视频上执行图形抽象,然后在图表空间中进行时间匹配,以衡量任务进度。我们的见解是,可以通过形成图形的实体交互来描述任务,并且该图抽象可以帮助删除无关紧要的信息,例如纹理,从而产生更强大的奖励功能。我们评估了我们的方法,即Graphirl,关于X魔术中的跨体制学习,并从人类的示范中学习进行真实机器人操纵。我们对以前的方法表现出对各种视频演示的鲁棒性的显着改善,甚至比真正的机器人推动任务上的手动奖励设计获得了更好的结果。视频可从https://sateeshkumar21.github.io/graphirl获得。
translated by 谷歌翻译
观察是理解和研究人类行为和精神状态的重要工具。但是,编码人类行为是一项耗时,昂贵的任务,在这种任务中,可靠性可能难以实现,偏见是一种风险。机器学习(ML)方法提供了提高可靠性,降低成本并扩展行为编码以在临床和研究环境中应用的行为编码的方法。在这里,我们使用计算机愿景来得出黄金标准行为评级系统的行为代码或概念,为精神卫生专业人员提供熟悉的解释。从有或没有强迫症的儿童和青少年的临床诊断访谈视频中提取了特征。我们的计算评级与人类的专家评级相当,在负面情绪,活动水平/唤醒和焦虑方面。为了关注和积极影响概念,我们的ML等级表现合理。但是,凝视和发声的结果表明需要提高数据质量或其他数据方式。
translated by 谷歌翻译
数据驱动的模型预测控制比无模型方法具有两个关键优势:通过模型学习提高样本效率的潜力,并且作为计划增加的计算预算的更好性能。但是,在漫长的视野上进行计划既昂贵又挑战,以获得准确的环境模型。在这项工作中,我们结合了无模型和基于模型的方法的优势。我们在短范围内使用学习的面向任务的潜在动力学模型进行局部轨迹优化,并使用学习的终端值函数来估计长期回报,这两者都是通过时间差异学习共同学习的。我们的TD-MPC方法比在DMCONTROL和META-WORLD的状态和基于图像的连续控制任务上实现了卓越的样本效率和渐近性能。代码和视频结果可在https://nicklashansen.github.io/td-mpc上获得。
translated by 谷歌翻译
我们在流式框架中考虑了随机近似问题,在流式框架中,通过对其梯度的无偏估计,将目标最小化。在此流框架中,我们考虑必须顺序处理的时间变化数据流。由于其适用性和计算优势,我们的方法是随机梯度(SG)。我们对各种基于SG的方法的收敛性提供了非反应分析;其中包括著名的SG下降(又称Robbins-Monro算法),恒定和随时间变化的迷你批次SG方法及其平均估计值(又称Polyak-Ruppert平均)。我们的分析表明,根据预期的数据流选择学习率,这可以加快收敛速度​​。此外,我们还展示了平均估计值如何在获得Cramer-Rao的下限的同时对任何数据流速率稳健而实现最佳收敛。特别是,我们的分析表明,随时间变化的迷你批次的Polyak-Ruppert平均如何同时提供差异和加速收敛性,这对于大规模学习问题是有利的。这些理论结果在各种数据流中进行了说明,显示了所提出的算法的有效性。
translated by 谷歌翻译
虽然由强化学习(RL)训练的代理商可以直接解决越来越具有挑战性的任务,但概括到新颖环境的学习技能仍然非常具有挑战性。大量使用数据增强是一种有助于改善RL的泛化的有希望的技术,但经常发现它降低样品效率,甚至可以导致发散。在本文中,我们在常见的脱离政策RL算法中使用数据增强时调查不稳定性的原因。我们识别两个问题,均植根于高方差Q-targets。基于我们的研究结果,我们提出了一种简单但有效的技术,可以在增强下稳定这类算法。我们在基于Deepmind Control Suite的基准系列和机器人操纵任务中使用扫描和视觉变压器(VIT)对基于图像的RL进行广泛的实证评估。我们的方法极大地提高了增强下的呼声集的稳定性和样本效率,并实现了在具有看不见的视野视觉效果的环境中的图像的RL的最先进方法竞争的普遍化结果。我们进一步表明,我们的方法与基于Vit的亚体系结构的RL缩放,并且数据增强在此设置中可能尤为重要。
translated by 谷歌翻译